第 2 章 学科结构与发展

2.1 PROS

关于文献计量的数据库很多,比如PROS,Arxiv等等,对PROS和Arxiv数据集的分析,另外单独介绍。

2.2 Web of Science

我们选择Web of Science,原因是因为当前ESI学科是各高校关注的热点,而Web of Science数据库是ESI的上游数据库,挖掘的空间更大。

ESI与Web of Science的关系图.

图 2.1: ESI与Web of Science的关系图.

Web of Science数据库的题录数据结构如下表:

2.3 数据集的构建

由于wos网站限制每次只能下载500条记录,因此每个学校的题录文件(一个文件夹)存放不止一个txt文件。具体文件结构如下:

除了题录数据,还包括辅助的数据集

编号 名称 简介 变量数量 共有变量
1 web of science wos题录 13 University,ISSN
2 sichuan_shool_encn2.csv 四川高校的名称 2 University
3 esi_plus_cas_IF_set.rds esi期刊学科分类 11 ISSN
中科院学科分类
是否中国SCI期刊
期刊影响因子等

接下来,我们来读取规整文件

构建读取相应文件的子函数

## [1] "01_Chengdu_Univ_Technol"

依次迭代读取

测试下呢

读取四川高校的名称

合并到tbl, 形成 sichuan_set

这里是esi期刊列表数据集, esi_plus_cas_set = esiJCR + CAS + chineseJCR (即,每个期刊的esi学科分类,中科院学科分类,是否是中国JCR期刊),目的是方便今后分析

esi_plus_cas_IF_set 合并到 sichuan_set, 形成 complete_set

2.4 数据集的导入

最终,我们围绕四川省各高校,选择Web of Science数据库中的10个维度(上图中红色圈出的部分),然后映射并融合了ESI学科分类、中科院期刊分类、期刊等级以及影响因子等,构建了包含24个维度的完整数据集。

## Observations: 19,341
## Variables: 24
## $ University      <chr> "Chengdu_Univ_Technol", "C...
## $ University_cn   <chr> "成都理工大学", "成都理工大学", "成都理工大...
## $ AU              <chr> "Duan, YP; Shang, RS; Zhon...
## $ AF              <chr> "Duan, Yiping; Shang, Ruis...
## $ SO              <chr> "International Journal Of ...
## $ DE              <chr> "Dry reforming of methane;...
## $ C1              <chr> "[Duan, Yiping; Shang, Rui...
## $ RP              <chr> "Huang, LH (reprint author...
## $ FU              <chr> "National Natural Science ...
## $ CR              <lgl> NA, NA, NA, NA, NA, NA, NA...
## $ TC              <dbl> 0, 0, 0, 0, 0, 0, 0, 1, 0,...
## $ ISSN            <chr> "0360-3199", "1367-9120", ...
## $ PY              <dbl> 2016, 2016, 2016, 2016, 20...
## $ UT              <chr> "WOS:000389786500012", "WO...
## $ Full_title      <chr> "INTERNATIONAL JOURNAL OF ...
## $ Category_ESI    <chr> "ENGINEERING", "GEOSCIENCE...
## $ Category_ESI_cn <chr> "工程学", "地球科学", "计算机科学", "数...
## $ Category_CAS    <chr> "工程技术", "地学", "工程技术", "数学"...
## $ Degree_CAS      <int> 2, 3, 2, 4, 4, 4, 3, 3, 3,...
## $ Title           <chr> NA, NA, NA, NA, NA, NA, "石...
## $ is_chinese      <dbl> 0, 0, 0, 0, 0, 0, 1, 1, 1,...
## $ Cites           <dbl> 75123, 12551, 22735, 696, ...
## $ ImpactFactor    <dbl> 4.229, 2.866, 3.241, 0.314...
## $ Eigenfactor     <dbl> 0.08137, 0.02432, 0.04892,...

2.5 各高校对比

建立数据集有很大的好处,比如我们可以很方便的对比四川各高校的科研情况

被引情况呢

从未被引用的数量和占比(太讨厌了吧)

2.6 分析单个学校

看看我们川师的情况吧

为什么少了2各呢?大家想想吧

2.7 第一作者筛查

2.8 通讯作者筛查

2.9 可视化之小试牛刀

川师逐年论文发表情况

2.10 可视化之初显身手

2.11 可视化之渐入佳境

来点动画吧,(gganimate升级后,该代码无法工作)

现在我们可以使用新的 gganimate宏包了

看看这个动画

又来一个

再来一个

2.12 更多

还可以做各种统计和可视化,在后面的章节一一展示吧